Le corpus Polaris récent contient des documents extraits de l'archive Istex, circonscrits à la zone polaire arctique et publiés entre 2000 et 2015.
L'exploration thématique de ce corpus a notamment utilisé l'outil IRaMuTeQ. Celui-ci nécessite un prétraitement des données pour n'ingérer qu'un fichier unique, contenant à la fois les métadonnées et les textes :
Constitution du fichier de données en entrée = textes concaténés et précédés chacun des métadonnées que l’on souhaite explorer selon une syntaxe précise ;
Sélection des métadonnées suivantes : titre de revue, langue, type de document.